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Что такое Эльбрус 


и Основан на разработках СССР, не клон зарубежного процессора 


и Полностью спроектирован в России, есть модель, которая производится B 
России, в основном производится на TSMC 


и Умеет исполнять KOD, X86 в режиме двоичной трансляции, в остальном не 
имеет с X86 ничего общего 


и Довольно производителен: «Эльбрус-16С> — 16 ядер, 2 ГГц, 750 Гфлоп/с, 16 
НМ 


и Серийно производится с 2014 года и практически применяется 


и ОС - несколько дистрибутивов Linux (Эльбрус, МСВС, ALT Linux, Astra Linux), 
сообщается, что существует версия ОМХ под Э2К. 


История 


1987 год: Эльбрус-1 - 15 млн nonc, 64 М ВАМ = опирался на 
опыт создания БЭСМ-6 


1980 год: Эльбрус-2 - 8 процессоров, 125 млн флопс, 144 М ВАМ 


Эльбрус-з начат в 1985 году, но запустить в серию не удалось в 
связи с распадом СССР. Единственный работающий экземпляр - 
1994 год. Создатели Эльбруса начинают работать над 
процессорами Интел. 


Только в 2014 году выходит первый процессор серии Э2К - 
Эльбрус 4С. Тактовая частота 800 МГц, 50 Гфлопс. Эстеты 
делают фи - гадкий, негодный процессор. 


2021 год: Эльбрус 1606 


х 16 ядер 

и 2[[ц 

и 1500 ГФлопс (32 бита) 
и До 50 команд на такт 


и ло 64 ядер в 5МР системе. Реально на 9-8C выпускались 4- 
процессорные модули, данных по 216 пока нет, но 4 процессора = 
64 ядра. 


и Шина 200 Гбайт/с 


Moore’s Law: The number of transistors оп microchips doubles every two years [1 


Moore's law describes the empirical regularity that the number of transistors on integrated circuits doubles approximately every two years. in Data 
This advancement 15 important for other aspects of technological progress in computing - such as processing speed or the price of computers. 


Transistor count 
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Data source: Wikipedia (wikipedia.org/wiki/Transistor_count) Year in which the microchip was first introduced 
OurWorldinData.org - Research and data to make progress against the world's largest problems. Licensed under CC-BY by the authors Hannah Ritchie and Max Roser. 


Закон мура 


и“ Удвоение числа транзисторов на кристалле каждые 24 месяца. 
и Закон работает до сих пор (см. график). Но! 


и Ло 1995 года это удвоение давало прямой прирост 
производительности единственного ядра процессора, то есть 
ускоряло работу всех программ без исключения, и не 
требовало никаких усилий от программистов. Просто запусти 
программу на новом процессоре. 


и [|римерно с 95 года начались проблемы. Прирост 
производительности отдельного ядра начал буксовать. 
Процессоры пошли в сторону параллелизма. 


Скрытый параллелизм 


и Первые попытки были сделаны прозрачным для программиста 
образом - CISC процессоры архитектуры x80 переродились - теперь 
они CISC только снаружи, но RISG внутри. 


и Крупные Н$С-командыг разбиваются на последовательности RISC-style 
внутренних инструкций процессора: Затем в потоке таких инструкций 
во время работы процессора: выявляются независимые друг от друга 
участки, которые выполняются параллельно = внутри себя процессор 
фактически является многоядерным и способен выполнять несколько 
потоков инструкций. 


и Такая модель позволяет (с известной вероятностью) ускорять 
программы не требуя никаких усилий от программиста и компилятора. 
За счёт кардинального усложнения процессора. 


А1 + {[addr(A) + 4 * R2] + 1 


return 


variable length 


fixed length 


явный параллелизм 


и Фактически такое усложнение, конечно, привело и к 
усложнению компилятора = правильное расположение 
инструкций в коде упрощает работу процессору и 
повышает вероятность распараллеливания. 


и В итоге это усложнение все равно не решило всех 
проблем - современные процессоры явно многоядерные 
и требуют от программиста явного ручного 
распараллеливания алгоритмов. Хотя в пределах ядра 
описанная выше модель CISC/RISC преобразования на 
х86/х64 процессорах до сих пор работает. 


VLIW: ручной параллелизм 


и При разработке Э2К был принят кардинально другой подход. Зачем 
усложнять кристалл, заставляя его распараллеливать изначально 
линейный код? Можно перенести эту работу полностью на компилятор. 
Он в любом случае знает о программе больше, чем процессор, может 
работать долго, анализировать крупные участки кода и принимать 
решения об оптимизации на более высоком уровне. 


и Онижаем неопределенность = в обычных процессорах параллелизация - 
результат работы и компилятора, и процессора - и они должны 
понимать друг друга 


и Инструкция (широкая команда) для Э2К содержит прямые и конкретные 
указания для всех вычислительных блоков процессора. Если что-то 
можно сделать параллельно - об этом процессору говорит компилятор. 


На борту Эльбруса 


и Каждое ядро процессора содержит шесть АЛУ, которые работают 
параллельно. Для каждого АЛУ в широкой команде есть свой 
фрагмент - слог. 


и Кроме слогов для шести АЛУ широкая команда может содержать: 
и Инструкцию для юнита передачи управления 

и 3 вычисления на предикатах и 6 квалифицирующих предикатов 

и 4 инструкции для асинхронного чтения данных в цикле 


и 4 литерала в:З2:бита 


`редикаты 


и Регистр предикатов: каждые 2 бита этого регистра 
рассматриваются как булево значение - предикат. 
Над битами в регистре можно выполнить логические 
операции, и затем - обусловить выполнение любого 
слога значением предиката. Второй бит позволяет 
предикату иметь “недопустимое” значение. 


х Это позволяет упаковывать код типа {х < 0) X = 0; 
else х--;” в пару команд вообще без условных (и 
безусловных) переходов. 


Е | ID | EX МЕМ Е 


Е О | EX МЕМ МВ. 


Команды перехода (тр) - ад для любого процессора. Они 
сбивают работу конвейера и обходятся процессору как добрый 
десяток других команд. 


| Одготовка переходов 


и В Э2К все переходы (включая вызовы и возвраты из 
подпрограмм) выполняются в два этапа. На первом этапе 
команда вычисляет адрес перехода. Эта команда может быть 
выполнена (запущена на исполнение) как угодно рано. 


и На втором этапе переход выполняется. Если мы достаточно 
рано запустили команду вычисления адреса перехода, то 
команда собственно перехода будет выполнена абсолютно 
безболезненно, конвейер процессора не собъется. 


и ЭК позволяет подготавливать до трех переходов 
одновременно (на случай, если мы пока не знаем, по какому 
пути пойдёт программа). 


Регистровое окно 


и Процессор содержит 256 84-разрядных регистров. При этом не все регистры 
могут быть видны программе = каждая функция “заказывает” себе у 
процессора нужное количество. Видимые функции регистрыгделятся на три 
последовательные группы. 


и Регистры, в которых вызывающая функция передала нам параметры. 
и Регистры, в которых мы просто работаем. 
и Регистры, в которых мы будем передавать параметры вызываемой функции. 


“ В момент вызова функции регистровый файл виртуально “сдвигается” вниз - 
первая и вторая группы “уходят ниже ватерлинии” и не будут видны вызванной 
функции. Гретья группа становится первой, а новые вторую и третью группы 
вызванная функция “заказывает” себе у процессора специальной командой. 


r(N-1) 


\ | вызыванщей процедуры 


7? 


r(N-M-1) 


|] Регистровый файл вызванной 
процедуры в начальный момент 


MES 


Регистровый файл вызванной 
процедуры после увеличения 
размера окна 


Стек регистров 


и Если в процессору хватило физических регистров для того, чтобы 
обеспечить аппетиты обоих (вызывающей и вызываемой) функций, TO 
обрашения к памяти вообще не происходит. Если функции жадные до 
регистров или глубина вложенности велика, и физические регистры 
кончились; процессортрозрачногдлятрорраммьгсохраняет нижнюю” 
часть регистрового файла в стеке одной крупной операцией записи, что 
куда более эффективно, чем обслуживание мелких риѕћ/рор инструкций 
в традиционных архитектурах. Естественно, что по мере возвратов из 
функций процессор так же прозрачно для кода вернёт регистры из стека. 


х Есть четвёртая группа регистров - глобальные. Они видны всем 
функциям, не сохраняются при вызове и, таким образом, могут быть 
использованы как временные внутри функций или как регистры доступа к 
глобальным данным. 


|  одкачка данных для 
цикла 


и Процессор Э2К способен выполнять цикльгс наложением итераций - одна 
или несколько итерации цикла могут начать исполнение до того, как 
предыдущая итерация завершилась. 


и Для этого в регистровом (и предикатном): файле может быть организована 
последовательность (конвеиеб) бевистров=несмотря нато, что KO! всех 
итераций будет обращаться к одному и тому же регистру, процессор будет 
выделять каждой новой запущеной итерации новый регистр из конвейера. 


х Более того, отдельный параллельно работающий юнит загрузки данных 
для цикла будет подгружать данные из памяти по определенной 
программистом схеме. Этот юнит загружает данные в НЕО с опережением, 
а код цикла выбирает их из НЕО по мере выполнения итераций цикла. Это 
позволяет выполнять циклы не задерживая итерации на ожидание данных 
из памяти. 


несколько стеков 


и Э2К поддерживает несколько параллельных стеков. В частности, 
сохранение адреса возврата и состояния процессора выполняется на 
своём CTEKE, а регистров пользователя - на своём. Этот факт, плюс 
аппаратное управление процессом сохранения и восстановления 
регистров.делаетнахэльбрусе невозможными: атакитинапереполнения 
стека, когда за счёт переполнения на стек подставляется иной адрес 
возврата. Вообще, большое количество традиционных для X86/arm/mips 
хакерских атак на Э2К принципиально не работает. Отмечу - атаки не 
работают не в силу того, что хакеры пока не знают Э2К, а, как показано 
выше, в силу того что вообще невозможны в данной архитектуре. 


и Конечно, нельзя гарантировать, что хакеры HE найдут свои особенные 
пути взлома 92K, нов целом он куда более защищен. Даже если не 
включать защищенный режим. 


Защищенный режим 


и Защищенный режим плох тем, что под него (пока?) не удалось 
собрать Линукс. В остальном - он великолепен. 


и В защишенном режименельзаянородитьуказательизцелого: 
Или из чего бы то ни было, кроме указателя. 


и Кроме того - указатель имеет сложную структуру - база, 
размер и текущее смещение. 


и Смещение не может выйти за размер. Адресная арифметика 
допустима в пределах [база, база+размер[- и этим же 
диапазоном ограничены указатели, которые мы можем 
породить из данного указателя. 


Защищеный режим 


и Эффект от такого ограничения проще всего описать так: 
защищенность уровня ауа:дляарограмм:на: си: Managed 
memory на аппаратном уровне. Промазать указателем 
больше нельзя Аппаратный маюинйа:нанолной скорости. 


и Нельзя просто так взять и просканировать память - вы 
можете обратиться только в ту часть памяти, к которой 
вам ‘явно выдали указатель. 


и Для реализации этого механизма процессор поддерживает 
теги - маркеры, которые говорят ему, что именно лежит в 
данной ячеике ОЗУ - указатель или данные. 


Исполнение кода x80 


и [|рооцессор не умеет исполнять Интеловский код аппаратно, 
HO для него реализована программная бинарная трансляция 
кода x86 в код Э2К. Трансляция выполняется прозрачно для 
исполняемого кода. Это позволяет запускать на 32K 
операционные системы для Интеловских процессоров. 


и Бинарная трансляция частично поддержана аппаратно - 
процессор содержит элементы аппаратуры архитектуры х86, 
которые очень накладно эмулировать программно - в 
частности, Э2К поддерживает сегментную адресацию и 
соответствующий набор сегментных регистров. 


Бинарный транслятор 


“ Бинарный транслятор состоит из трех версий 
генератора кода: 


и |||аблонного (транслирует инструкции поштучно) 
и Быстрого регионного (транслирует участки кода) 


и Оптимизирующего - работает медленно, 
применяется для перекомпиляции очень горячих 
участков кода 


x86 x86 
Linux Linux 
application application 
Эльбрус Эльбрус 
Linux Linux 
application application 


“Эльбрус” Linux 


Микропроцессор “Эльбрус” 


Есть режим работы, который позволяет запускать 
скомпилированные под X86 LINUX приложения на 
ядре LINUX, скомпилированном нативно под Эльбрус. 


ИТОГ 


и Э2К - инженерное чудо, один из самых интересных и современных 
процессоров сегодняшнего дня. 


и Это не самый простои процессор, и для того, чтобы выжать из него 
полную скорость иногда нужно постараться: 


и Я описал не все. Только верхний уровень. Там ещё три этажа 
тонкостей и деталеи. Не все детали прикладному программисту 
обязательно знать. Разработчики предоставляют довольно 
подробные учебные материалы для переноса кода на Э2К, а так же 
библиотеки, которые уже оптимизированы для этой архитектуры. 


и [|рисоединяйтесь. 


Вопросы 


и ]митрий Завалишин, OZ@OZ.rù 
х DZ Systems group, htto://dZSyStems.com: 
х Digital Zone, http: /dz.ru 

х E-legion, htip://e-legion.com 
х Аргепіѕ, Nttp://aprentis.ru 


